Extracción de Información Estructurada de Documentos Semiestructurados

Plataforma: Ubuntu 20 Tipo: Proyecto Cerrado Fecha: 2023 Enlace: No disponible

Resumen

Este proyecto tuvo como objetivo desarrollar una plataforma genérica capaz de extraer información estructurada desde documentos semiestructurados utilizando técnicas de inteligencia artificial, OCR y análisis de layout.

La iniciativa surgió tras varios proyectos exitosos de procesamiento documental, donde cada solución estaba diseñada para un conjunto específico de documentos. El desafío consistía en construir una solución más flexible, capaz de adaptarse a formularios, contratos, solicitudes, declaraciones y otros documentos con estructuras variables.

La visión era avanzar hacia una alternativa especializada para automatización documental, explorando capacidades similares a las ofrecidas por plataformas líderes del mercado de aquella época.

Referencias Visuales

La siguiente imagen ilustra conceptualmente el tipo de análisis realizado sobre documentos semiestructurados.

Layout Parser

Contexto

En muchos procesos empresariales la información no se encuentra almacenada en bases de datos estructuradas, sino distribuida dentro de documentos.

Aunque los documentos suelen contener información organizada visualmente, dicha estructura no siempre puede interpretarse fácilmente mediante OCR tradicional.

El desafío consistía en responder preguntas como:

¿Cuál es el nombre del cliente?
¿Cuál es el número de identificación?
¿Qué valor corresponde a determinado campo?
¿Qué información pertenece a una tabla?
¿Cuál es la relación entre una etiqueta y su valor?

Resolver estas preguntas de forma genérica requería comprender tanto el texto como la estructura visual del documento.

Problema

Los sistemas tradicionales de OCR permiten leer texto, pero no necesariamente comprender la relación entre los distintos elementos de una página.

Por ejemplo:

Nombre:
Juan Pérez

Dirección:
Av. Principal 123

Un OCR convencional puede reconocer todas las palabras, pero identificar correctamente qué valor corresponde a cada campo requiere comprender la estructura del documento.

El objetivo del proyecto era construir una solución capaz de interpretar estas relaciones de manera automática.

Arquitectura General

Solución

La solución combinó múltiples modelos especializados que trabajaban sobre distintas capas de información.

OCR

La primera etapa consistía en obtener el texto y la ubicación espacial de cada elemento presente en el documento.

Comprensión de Layout

Posteriormente se utilizaban modelos especializados para interpretar la estructura visual del documento.

Se trabajó principalmente con:

LayoutLMv3.
RapidTable.
Modelos internos especializados.

Estos modelos permitían analizar simultáneamente:

Texto.
Posición.
Agrupaciones visuales.
Relaciones espaciales.

Extracción de Tablas

Una de las capacidades incorporadas durante el proyecto fue la extracción de tablas.

Esto permitió ampliar significativamente los escenarios de uso y abordar documentos más complejos.

Generación de Datos Estructurados

Finalmente se intentaba transformar la información obtenida en estructuras reutilizables para otros sistemas.

Mi Participación

Participé como líder técnico del proyecto.

Mis responsabilidades incluyeron:

Diseño de la arquitectura.
Evaluación tecnológica.
Selección de modelos.
Coordinación del equipo.
Supervisión de experimentación.
Definición de métricas.
Presentación del producto a potenciales clientes.

También participé activamente en la validación de resultados y en la definición de estrategias para relacionar preguntas y respuestas dentro de los documentos.

Infraestructura

La solución fue diseñada utilizando servicios serverless y contenedores desplegados sobre Amazon Web Services (AWS).

Esto permitió construir una arquitectura escalable y orientada a procesamiento bajo demanda.

Desafíos Técnicos

Comprensión de Relaciones

Uno de los mayores desafíos fue identificar correctamente la relación entre campos y valores.

Por ejemplo:

Nombre: Juan Pérez
RUT: 12.345.678-9

La extracción de texto era relativamente sencilla.

Determinar que "Juan Pérez" corresponde al campo "Nombre" y que el RUT pertenece a otro campo resultó ser un problema considerablemente más complejo.

Dependencia del Posicionamiento

Gran parte de la estrategia se apoyaba en relaciones espaciales y análisis geométrico del documento.

Si bien este enfoque entregó resultados prometedores, también mostró limitaciones cuando los documentos variaban significativamente de diseño.

Variabilidad Documental

Cada cliente, industria o formulario presentaba estructuras distintas.

La diversidad de layouts aumentaba considerablemente la complejidad del problema.

Tecnologías Utilizadas

Python
LayoutLMv3
RapidTable
OCR
AWS
Arquitecturas Serverless
Docker
Procesamiento Documental
Computer Vision

Resultados

El proyecto logró:

Extraer campos estructurados desde múltiples tipos documentales.
Analizar layouts complejos.
Extraer tablas automáticamente.
Validar arquitecturas escalables para procesamiento documental.
Generar demostraciones funcionales para potenciales clientes.

Además, permitió identificar con claridad los desafíos técnicos asociados a la comprensión documental avanzada.

Lo que Aprendí

Este proyecto dejó uno de los aprendizajes más importantes de mi experiencia profesional en procesamiento documental.

La extracción de texto y la comprensión de estructura son problemas diferentes.

Mientras que el OCR y los modelos de layout pueden identificar dónde está la información, comprender correctamente las relaciones semánticas entre preguntas y respuestas requiere mecanismos adicionales de interpretación.

Años después, la aparición y masificación de los modelos de lenguaje confirmó muchas de las limitaciones observadas durante este proyecto, especialmente en escenarios donde la comprensión contextual resulta más importante que la posición física de los elementos dentro del documento.

Viéndolo en Retrospectiva

Aunque el proyecto no evolucionó hacia un producto comercial, considero que fue una experiencia extremadamente valiosa desde el punto de vista técnico.

Permitió explorar los límites de las tecnologías documentales disponibles en ese momento y comprender con mayor profundidad la diferencia entre leer un documento y comprenderlo.

Muchas de las lecciones aprendidas en esta iniciativa terminarían siendo aplicadas posteriormente en proyectos de OCR avanzado, extracción documental especializada y soluciones basadas en modelos de lenguaje.

Información Adicional

La imagen utilizada corresponde a una representación conceptual del análisis de layout documental y se incluye únicamente con fines ilustrativos.

Resumen​

Referencias Visuales​

Contexto​

Problema​

Arquitectura General​

Solución​

OCR​

Comprensión de Layout​

Extracción de Tablas​

Generación de Datos Estructurados​

Mi Participación​

Infraestructura​

Desafíos Técnicos​

Comprensión de Relaciones​

Dependencia del Posicionamiento​

Variabilidad Documental​

Tecnologías Utilizadas​

Resultados​

Lo que Aprendí​

Viéndolo en Retrospectiva​

Información Adicional​